• 标签: Policy Gradient 共 1 个结果.
  • 策略梯度(Policy Gradient)是一类强化学习算法,用于训练智能体在环境中做出决策以最大化累积奖励。与值函数方法不同,策略梯度直接学习一个策略(policy),该策略将状态映射到动作的概率分布。通过调整策略的参数,智能体可以优化其性能,...
  • 上一页
  • 1
  • 下一页